▋前言
在 Switchboard 實驗後,我們將語音辨識系統套用至 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 語音資料集。
這個資料集專為情緒辨識研究設計,包含雙人對話音訊、逐字稿與人工情緒標註,極適合驗證系統的情緒辨識準確性。
本次選用樣本 Ses01F_script01_1.wav,並比對:
原始逐字稿 Ses01F_script01_1.txt(人工標註)
系統辨識逐字稿 Ses01F_script01_1.srt(AI產出)
系統情緒統計 summarize_emotion.txt
▋內容
Step 1:資料概況
對話為 母子兩人(Female = Speaker 1, Male = Speaker 0) 的情緒性爭執場景。
原始音檔長度約 6 分鐘。
逐字稿共有 70 句以上,情緒從平和逐漸轉為激烈,最後回歸冷靜。
Step 2:AI 系統輸出結果
summarize_emotion.txt 的結果如下:
Speaker: 0
neu: (18.75%)
ang: (50.00%)
sad: (12.50%)
hap: (18.75%)
Speaker: 1
ang: (33.33%)
hap: (33.33%)
neu: (25.00%)
sad: (8.33%)
從統計可看出:
Speaker 0(兒子) → 以「憤怒 (Angry)」為主,佔比 50%。
Speaker 1(母親) → 「憤怒 (Angry)」與「開心 (Happy)」各佔 1/3,顯示她的語氣有波動但仍帶安撫成分。
這樣的結果與 IEMOCAP 原劇本設定相符:母親在對話中試圖理性溝通,兒子則在情緒爆發與自我辯解間拉扯。
Step 3:句層級情緒觀察(取自 .srt)
在 Ses01F_script01_1.srt 中,我們能看到具體情緒隨語句變化的實例:
時間 | Speaker | 系統逐字稿內容 | 情緒分類 |
---|---|---|---|
00:10–00:14 | teacher | “He’s your father.” | Neutral |
00:45–00:53 | student | “Then it’s not just my business!” | Angry |
01:30–01:39 | teacher | “Are you crazy?” | Angry |
02:15–02:21 | student | “I’ve been a good son for too long!” | Angry |
03:40–03:52 | teacher | “I want somebody I can give myself to.” | Happy |
04:30–04:50 | student | “You’ll never understand!” | Sad |
可以觀察到:
Speaker 1(母親) 的情緒從「Neutral → Angry → Calm/Happy」轉折清晰。
Speaker 0(兒子) 則從「Neutral → 怒氣爆發 → 悲傷」逐步崩潰,反映強烈的心理轉折。
Step 4:分析結果與觀察
模型在情緒強度高的片段表現優異
低情緒張力句(如 Neutral)偶有誤標
整體結果符合劇情情緒走勢
Step 5:改進方向
語意輔助模型:加入文字語意分析(LLM)可修正情緒誤標。
更細情緒分類:目前四類(hap/ang/sad/neu)不足以反映「焦慮」「無奈」等情緒。
情緒曲線平滑化:未來可使用 sequence-based smoothing(如 GRU)呈現連續情緒變化。
▋下回預告
明天(Day 29),我們將從句與句之間的情緒遞移角度出發,分析情緒曲線的變化趨勢,
探討如何讓系統在長對話中捕捉「情緒節奏」,而非僅依單句判定。
▋參考資料
IEMOCAP
kaggle Iemocap-full-release